Data Overview
data <- read_csv(here::here("data/jackson.csv"),
col_types = cols(
.default = col_double(),
album_uri = col_character(),
album_name = col_character(),
album_img = col_character(),
album_release_date = col_character(),
album_release_year = col_date(format = ""),
album_popularity = col_integer(),
track_name = col_character(),
track_uri = col_character(),
key = col_character(),
mode = col_character(),
time_signature = col_integer(),
key_mode = col_character(),
track_popularity = col_integer()
)) %>%
mutate(album_name = gsub(".*(1954).*",
"The Music of Brazil/Jackson do Pandeiro",
album_name));
data %>%
glimpse()
Observations: 500
Variables: 23
$ album_uri <chr> "5T9tTjPIfjbUJGRJdYOOLl", "5T9tTjPIfjbUJGRJdYOOLl", "5T9tTjPIfjb...
$ album_name <chr> "Jackson Do Pandeiro Volume 1: Tum, Tum, Tum!", "Jackson Do Pand...
$ album_img <chr> "https://i.scdn.co/image/5dcc4a0cad740f1ee0774196d0a14f3693ef887...
$ album_release_date <chr> "1958-11-11", "1958-11-11", "1958-11-11", "1958-11-11", "1958-11...
$ album_release_year <date> 1958-11-11, 1958-11-11, 1958-11-11, 1958-11-11, 1958-11-11, 195...
$ album_popularity <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0...
$ track_name <chr> "Tum, Tum, Tum", "Pacífico Pacato", "Nortista Quatrocentão", "Se...
$ track_uri <chr> "6cCYhV6fU68uzbjWPG9V7x", "6Gu7y9SgtVTGh8YGhDPtCe", "1hq7M7cJtvD...
$ danceability <dbl> 0.501, 0.663, 0.550, 0.447, 0.544, 0.571, 0.495, 0.572, 0.500, 0...
$ energy <dbl> 0.987, 0.962, 0.947, 0.969, 0.972, 0.926, 0.967, 0.986, 0.947, 0...
$ key <chr> "A", "F", "D", "G", "E", "F", "E", "C", "F", "A#", "E", "F", "D#...
$ loudness <dbl> 2.561, 1.137, 1.621, 2.743, 2.513, 2.414, 2.375, 2.597, 3.078, 3...
$ mode <chr> "major", "major", "major", "major", "minor", "major", "minor", "...
$ speechiness <dbl> 0.0429, 0.1810, 0.0469, 0.0549, 0.0502, 0.0344, 0.0576, 0.0367, ...
$ acousticness <dbl> 0.718, 0.738, 0.666, 0.759, 0.787, 0.651, 0.712, 0.194, 0.286, 0...
$ instrumentalness <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0...
$ liveness <dbl> 0.282, 0.200, 0.251, 0.333, 0.176, 0.342, 0.321, 0.301, 0.323, 0...
$ valence <dbl> 0.963, 0.961, 0.923, 0.899, 0.783, 0.961, 0.755, 0.989, 0.957, 0...
$ tempo <dbl> 101.676, 113.562, 116.125, 116.023, 112.863, 133.065, 117.822, 1...
$ duration_ms <dbl> 158133, 139773, 163173, 143733, 151653, 157480, 158133, 154680, ...
$ time_signature <int> 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4...
$ key_mode <chr> "A major", "F major", "D major", "G major", "E minor", "F major"...
$ track_popularity <int> 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0...
Dançabilidade (danceability)
data %>%
ggplot(aes(sample=danceability)) +
stat_qq()

hchart (data$danceability,
color = "#B71C1C",
name = "Dançabilidade")
- Nenhum valor fora do domínio dos valores, a dançabilidade parece girar em torno de 0.6 e 0.7.
Verbosidade (speechines)
data %>%
ggplot(aes(sample=speechiness)) +
stat_qq()

hchart (data$speechiness,
color = "#B71C1C",
name = "Verbosidade")
- Nenhum valor fora do domínio dos valores. A verbosidade é em geral baixa, observando a música de Jackson o ritmo parece ser a questão principal, com letras curtas e quase repetitivas.
Duração (duration)
data <- data %>%
mutate(duration_s = duration_ms/1000)
data %>%
select(duration_s) %>%
glimpse()
Observations: 500
Variables: 1
$ duration_s <dbl> 158.133, 139.773, 163.173, 143.733, 151.653, 157.480, 158.133, 154.680, ...
data %>%
ggplot(aes(sample=duration_s)) +
stat_qq()

hchart (data$duration_s,
color = "#B71C1C",
name = "Duração (s)")
- Nenhum valor fora do domínio dos valores. As músicas giram em torno de 160 segundos (2 minutos e 40 segundos), as músicas de Jackson são em geral curtas.
Remasterização (remaster)
data <- data %>%
mutate(remaster = album_release_date > "1981-30-12")
data %>%
select(album_name, album_release_year, remaster) %>%
sample_n(10)
temp <- data %>%
distinct(album_name,
.keep_all = TRUE) %>%
mutate(remaster = ifelse(remaster == TRUE,"remasterizado","original"))
hchart(temp$remaster,
colorByPoint = TRUE,
name="Álbum")
- Álbuns remasterizados/relançados são muito mais frequentes.
temp <-
data %>%
distinct(album_name, .keep_all = TRUE) %>%
group_by(album_release_year) %>%
summarise(original_n = sum(!remaster),
remaster_n = sum(remaster))
highchart() %>%
hc_xAxis(categories = temp$album_release_year) %>%
hc_add_series(temp$original_n,
type = "column",
color = "#B71C1C",
name = "Não remasterizado") %>%
hc_add_series(temp$remaster_n,
type = "column",
name = "Remasterizado") %>%
hc_title(text = "Número de álbuns por ano")
- O ano de 2016 representa um aumento altíssimo na disponibilização de álbuns de Jackson no Spotify.
---
title: "Jackson - O rei do Ritmo"
subtitle: 'Análise sobre Jackson do Pandeiro (Spotify)'
author: "José Benardi de Souza Nunes"
output:
  html_document:
    df_print: paged
    toc: yes
    toc_float: yes
  html_notebook:
    toc: yes
    toc_float: yes
---

## Conjunto de dados utilizado

Análise exploratória de dados do [Spotify](https://www.spotify.com/br/)  sobre os álbuns e músicas de Jackson do Pandeiro Streaming. Os dados originais e as variáveis vêm [deste repositorio](https://github.com/cienciadedados-ufcg/vis-cancoes) . A explicação de como os dados foram gerados está disponível [na documentação da API do Spotify](https://beta.developer.spotify.com/documentation/web-api/reference/object-model/#audio-features-object).

### Considerações

Na análise abaixo foi possível perceber:

* Como a fala não é a grande questão na dançabilidade das músicas de Jackson, o que era de se esperar do **Rei do Ritmo**. 
* Vimos como no Spotify a maior parte dos álbuns são remasterizados/relançados e estes  são os mais populares. 
* Foi possível vislumbrar a incrível diversidade do cantor que nos foi reafirmada em termos de notas musicais e de duração.
* Por fim, foi possível perceber como o tom e mesmo a duração das faixas de Jackson não representam somente a incrível diversidade de sua música, mas também refletem sua vida pessoal. Um evento de natureza pessoal afeta visivelmente o tom de sua música.

```{r setup, echo=FALSE, warning=FALSE, message=FALSE}
library(tidyverse)
library(dplyr, warn.conflicts = FALSE)
library(here)
library(plotly)
library(scales)
library(highcharter)
library(stringr)
theme_set(theme_bw())
```

## Data Overview

```{r}
data <- read_csv(here::here("data/jackson.csv"), 
                            col_types = cols(
                                .default = col_double(),
                                album_uri = col_character(),
                                album_name = col_character(),
                                album_img = col_character(),
                                album_release_date = col_character(),
                                album_release_year = col_date(format = ""),
                                album_popularity = col_integer(),
                                track_name = col_character(),
                                track_uri = col_character(),
                                key = col_character(),
                                mode = col_character(),
                                time_signature = col_integer(),
                                key_mode = col_character(),
                                track_popularity = col_integer()
                                )) %>%
         mutate(album_name = gsub(".*(1954).*",
                                         "The Music of Brazil/Jackson do Pandeiro",
                                  album_name));
data %>% 
    glimpse()
```

### Dançabilidade (danceability)

```{r}
data %>% 
    ggplot(aes(sample=danceability)) + 
        stat_qq()
```

```{r}
hchart (data$danceability,
        color = "#B71C1C",
        name = "Dançabilidade")
```

* Nenhum valor fora do domínio dos valores, a dançabilidade parece girar em torno de 0.6 e 0.7.

### Verbosidade (speechines)

```{r}
data %>% 
    ggplot(aes(sample=speechiness)) + 
        stat_qq()
```

```{r}
hchart (data$speechiness,
        color = "#B71C1C",
        name = "Verbosidade")
```

* Nenhum valor fora do domínio dos valores. A verbosidade é em geral baixa, observando a música de Jackson o ritmo parece ser a questão principal, com letras curtas e quase repetitivas.

### Duração (duration)

```{r}
data <- data %>%
    mutate(duration_s = duration_ms/1000)

data %>% 
    select(duration_s) %>%
    glimpse()
```


```{r}
data %>% 
    ggplot(aes(sample=duration_s)) + 
        stat_qq()
```

```{r}
hchart (data$duration_s,
        color = "#B71C1C",
        name = "Duração (s)")
```

* Nenhum valor fora do domínio dos valores. As músicas giram em torno de 160 segundos (2 minutos e 40 segundos), as músicas de Jackson são em geral curtas.

### Remasterização (remaster)


```{r}
data <- data %>%
    mutate(remaster = album_release_date > "1981-30-12")

data %>% 
    select(album_name, album_release_year, remaster) %>%
    sample_n(10)
```


```{r}
temp <- data %>% 
    distinct(album_name,
             .keep_all = TRUE) %>%
    mutate(remaster = ifelse(remaster == TRUE,"remasterizado","original"))

hchart(temp$remaster,
       colorByPoint = TRUE,
       name="Álbum")
```

* Álbuns remasterizados/relançados são muito mais frequentes.

```{r}
temp <-
    data %>% 
    distinct(album_name, .keep_all = TRUE) %>%
    group_by(album_release_year) %>%
    summarise(original_n = sum(!remaster),
              remaster_n = sum(remaster))

highchart() %>%

  hc_xAxis(categories = temp$album_release_year) %>%
  hc_add_series(temp$original_n, 
                type = "column",
                color = "#B71C1C",
                name = "Não remasterizado") %>%
  hc_add_series(temp$remaster_n, 
                type = "column",
                name = "Remasterizado")  %>%
      hc_title(text = "Número de álbuns por ano")

```

* O ano de 2016 representa um aumento altíssimo na disponibilização de álbuns de Jackson no Spotify. 

## Mais discurso/diálogo (speechines) tem efeito sobre a dançabilidade da música?

```{r}
p <- data %>% 
        distinct(track_name, .keep_all = TRUE) %>%
        ggplot(aes(x=speechiness,
                   y=danceability)) +
        geom_point(alpha=0.4) 

ggplotly(p)
```

<br></br>

Não parece haver uma relação clara entre a dançabilidade das músicas de Jackson e a verbosidade de suas músicas. Temos muitas faixas de diferente grau de dançabilidade de mesmo grau baixo de verbosidade.  
Quando aumentamos a verbosidade das músicas (mais à direita no eixo) a dançabilidade se mantém relativamente estável (O aumento na dançabilidade é marginal).  


```{r}
data %>% 
    distinct(track_name, .keep_all = TRUE) %>%
    ggplot(aes(speechiness,danceability)) +
    stat_density2d(aes(fill = ..level..), geom = "polygon") +
    scale_x_continuous(breaks = seq(0,1,0.01))

```

<br></br>

É possível ver mais claramente que o ponto de maior ocorrência (cume ou ponto de level mais alto) é em em torno de 0.7 de dançabilidade e de aproximadamente 0.04 (valores muito baixo de verbosidade).   
Isso implica em algo já esperado, Jackson não precisa falar muito pra tornar suas músicas dançantes, não é a toa que Jackson ganhou a alcunha de Rei do Ritmo. 

* O aumento em verbosidade não parece afetar significativamente a dançabilidade.
* Verbosidade não seria a real razão da significativa dançabilidade das músicas de Jackson, o qual é notório pela batida e ritmo de suas músicas (tendo sido nomeado até maior ritmista da história da música popular brasileira).     

## Como o passar dos anos afeta o tempo de duração da música?

```{r}
m <- list(
  l =70,
  b = 150)

p <- data %>% 
    ggplot(aes(x=as.factor(album_release_year),
               duration_s,
               group=album_release_year,
               color=remaster)) +
    geom_boxplot(position = "dodge", alpha=0.6) +
    theme(axis.text.x = element_text(angle = 30, hjust = 1))

ggplotly(p) %>%
     layout(autosize = F, margin=m)
```

Olhando para os álbuns originais (remaster = FALSE) é possível perceber um grande aumento no tempo de duração das músicas no álbum em 1967 seguido de uma diminuição no álbum seguinte 1968. Esse choque no perfil dos dois álbuns requer uma explicação que não está nos dados.

O álbum de 1967 **A Braza do Norte**, primeiro gravado na gravadora Cantagalo marca também um momento especial na vida do cantor, pois esse é o ano de seu divórcio de Almira, parceira na música e esposa. De músicas mais longas e de faixas de letra mais triste como **"Passarinho abandonado"** composta pelo próprio Jackson, esse perfil incomum do álbum acaba por refletir esse momento da vida do cantor.

O álbum de 1968 por outro lado é uma coletânea e reúne algumas das músicas até então mais populares (e tambpem curtas do cantor). Essa coletânea casa com um inaudito porém curto hiato do cantor que pela primeira vez passa um ano sem publicar um álbum, o qual pode ser atribuído ao seu divórcio.

* Os álbuns remasterizados/relançados reúnem faixas algumas vezes de diferentes momentos da carreira do cantor, e por isso fica difícil atribuir um significado pertinente à duração de suas faixas. 


## Os albuns relançados/remasterizados são mais populares? 

```{r}
# lollipop chart
m <- list(
  l = 370)

p <- data %>%
        ggplot(aes(album_popularity,y=reorder(album_name,album_popularity),
                   color=remaster,
                   group=remaster)) +
            geom_segment(aes(x = 0, y = reorder(album_name,album_popularity), 
                             xend = album_popularity, 
                             yend = album_name)) + 
        geom_point() +
        theme(axis.title.y=element_blank())

ggplotly(p,tooltip=NA) %>%
  layout(autosize = F,
         margin = m)
```

Fica evidente que para Jackson do Pandeiro **os álbuns remasterizados/relançados dominam o cenário do Spotify em termos de popularidade**. 
Primeiramente, simplesmente observando a proporção entre remasterizados e não remasterizados fica evidente que os primeiros são os que o Spotify mais disponibiliza. Segundo, levando em consideração a questão de qualidade de áudio era de se esperar que os remasterizados tomassem a dianteira.

## Como o tempo afeta a distribuição das notas musicais ?

```{r}
tim12equal = c("#00008F", "#0000EA", "#0047FF", "#00A2FF", "#00FEFF", "#5AFFA5", "#B5FF4A", "#FFED00", "#FF9200", "#FF3700", "#DB0000", "#800000")


m <- list(
    l=80,
    r=30);

p <-  data %>%
    select(key,album_release_date, remaster) %>%
    group_by(album_release_date,key,remaster) %>%
    summarise(count = n()) %>%
    mutate(prop = count/sum(count)) %>%
    ungroup() %>%
    ggplot(aes(x = factor(album_release_date), 
               y = count, fill = key,
               text = paste(
                    "Proporção:", count * 10,"%"
                     ))) +
    geom_bar(stat = "identity", position = "fill", width = .7)  +
    scale_y_continuous(labels = scales::percent) +
    scale_fill_manual(values = tim12equal) +
    theme(axis.text.x = element_text(angle = 30, hjust = 1))  +
    theme(axis.title.x=element_blank(),
          axis.title.y=element_blank()) +
    facet_grid(remaster ~ .) +
    ggtitle("Notas musicais (distinção por remasterização)") +
    guides(fill=guide_legend(title=""))

ggplotly(p, tooltip="text") %>%
      layout(autosize = F,
             margin = m,
             legend = list(
      orientation = "h", y =-0.2
    ))

```

* É possível ver que no começo dos anos 1960 ínicio as músicas na escala entre E e G dominam fortemente o repertório de Jackson, curiosamente quando as músicas de notas entre A e C chegam a ocupar metade das ocorrências.   
    + Isso está de acordo com o perfil de Jackson, notório por sua heterogeneidade, além disso o álbum de 1967 como foi dito anteriormente representa uma mudança no tom do cantor também por motivos pessoais (seu divórcio).  
 * Os álbuns remasterizados refletem uma grande variação em termos de notas musicais já esperada dado que esse conjuto reúne uma quase caótica série de coletâneas, seleções diversas e relançamentos que acabam misturando momentos diferentes da carreira do cantor.  
    + O fato de Jackson se entregar a diversos estilos musicais śo multiplica essa variação em termos de notas musicais (Jackson se envolveu com baião, xote, xaxado, coco, arrastapé, quadrilha, marcha, frevo, **e outros**), isso fica evidente na variação já nos álbuns não remasterizados.
